Point cloud registration (PCR) is a popular research topic in computer vision. Recently, the registration method in an evolutionary way has received continuous attention because of its robustness to the initial pose and flexibility in objective function design. However, most evolving registration methods cannot tackle the local optimum well and they have rarely investigated the success ratio, which implies the probability of not falling into local optima and is closely related to the practicality of the algorithm. Evolutionary multi-task optimization (EMTO) is a widely used paradigm, which can boost exploration capability through knowledge transfer among related tasks. Inspired by this concept, this study proposes a novel evolving registration algorithm via EMTO, where the multi-task configuration is based on the idea of solution space cutting. Concretely, one task searching in cut space assists another task with complex function landscape in escaping from local optima and enhancing successful registration ratio. To reduce unnecessary computational cost, a sparse-to-dense strategy is proposed. In addition, a novel fitness function robust to various overlap rates as well as a problem-specific metric of computational cost is introduced. Compared with 7 evolving registration approaches and 4 traditional registration approaches on the object-scale and scene-scale registration datasets, experimental results demonstrate that the proposed method has superior performances in terms of precision and tackling local optima.
translated by 谷歌翻译
This paper presents SimVTP: a Simple Video-Text Pretraining framework via masked autoencoders. We randomly mask out the spatial-temporal tubes of input video and the word tokens of input text and then feed them into a unified autencoder to reconstruct the missing pixels and words. Our SimVTP has several properties: 1) Thanks to the unified autoencoder, SimVTP reconstructs the masked signal of one modality with the help from another modality, which implicitly learns the cross-modal alignment between video tubes and text tokens. 2) SimVTP not only benefits from a high video masking ratio (e.g. 90%) due to the temporal redundancy of video, but also needs a high text masking ratio (e.g. 75%), which is much higher than BERT (e.g. 15%), to achieve optimal performance. This is because the aid of video modality makes text reconstruction less challenging, which thus needs a higher mask ratio to make the pretext harder for useful feature learning. 3) Equipping SimVTP with video-text contrastive learning (VTC) and video-text matching (VTM), which are two commonly used cross-modal training strategies, could further improve the transferable performance significantly. 4) SimVTP is dataefficent, e.g., pre-training only on 10% data of WebVid-2M, SimVTP achieves surprisingly good results (43.8 R@1) on MSRVTT, which is far above recent state-of-the-art methods pre-trained on both CC3M and WebVid-2M. We transfer our pre-trained model to various downstream tasks and achieve superior performance. The codes and models will be released at https://github.com/mayuelala/SimVTP.
translated by 谷歌翻译
联合学习(FL)是一种机器学习范式,允许分散的客户在不共享其私人数据的情况下进行协作学习。但是,过度的计算和沟通要求对当前的FL框架构成挑战,尤其是在训练大型模型时。为了防止这些问题阻碍FL系统的部署,我们提出了一个轻巧的框架,客户共同学习融合由多个固定预训练的模型生成的表示形式,而不是从SCRATCH培训大型模型。这通过考虑如何从预先训练的模型中捕获更多特定于客户的信息,并共同提高每个客户利用这些现成模型的能力,从而导致我们解决了一个更实用的FL问题。在这项工作中,我们设计了一种联合原型对比度学习(FEDPCL)方法,该方法通过其类原型共享客户的知识,并以原型对比度方式构建特定于客户的表示。共享原型而不是可学习的模型参数可以使每个客户以个性化的方式融合表示表示,同时以紧凑的形式保持共享知识以进行有效的通信。我们在轻量级框架中对拟议的FEDPCL进行了彻底的评估,以测量和可视化其在流行的FL数据集上融合各种预训练模型的能力。
translated by 谷歌翻译
大多数图形之间的作品都是在具有交叉注意机制的编码器框架上构建的。最近的研究表明,对输入图结构进行明确建模可以显着改善性能。但是,香草结构编码器无法在所有解码步骤的单个正向通道中捕获所有专业信息,从而导致语义表示不准确。同时,输入图在交叉注意中作为无序序列被扁平,忽略了原始图形结构。结果,解码器中获得的输入图上下文向量可能存在缺陷。为了解决这些问题,我们提出了一种结构感知的交叉注意(SACA)机制,以在每个解码步骤中以结构意识的方式重新编码在新生成的上下文上的输入图表示条件。我们进一步调整SACA,并引入其变体动态图修剪(DGP)机制,以在解码过程中动态下降无关的节点。我们在两个图形数据集(LDC2020T02和ENT-DESC)上实现了新的最新结果,但计算成本仅略有增加。
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
基于深度学习的水下图像增强(UIE)面临的主要挑战是地面真相高质量的图像是不可用的。大多数现有方法首先生成近似参考图,然后可以确定地训练增强网络。这种方法无法处理参考图的歧义。在本文中,我们将UIE解决为分布估计和共识过程。我们提出了一个新颖的概率网络,以了解退化的水下图像的增强分布。具体而言,我们将条件变异自动编码器与自适应实例归一化结合在一起,以构建增强分布。之后,我们采用共识过程来根据分布中的一组样本来预测确定性结果。通过学习增强分布,我们的方法可以在某种程度上应对参考图标记中引入的偏差。此外,共识过程对于捕获强大而稳定的结果很有用。我们在两个广泛使用的现实水下图像增强数据集上检查了提出的方法。实验结果表明,我们的方法可以对可能的增强预测进行抽样。同时,与最先进的UIE方法相比,共识估计会产生竞争性能。代码可在https://github.com/zhenqifu/puie-net上找到。
translated by 谷歌翻译
概念相关性估计(CRE)任务是确定两个给定的概念是否相关。尽管可以轻松适应此任务的语义文本相似性(STS)任务的现有方法,但CRE任务具有一些独特的属性,可以利用这些属性来扩大数据集以解决其数据稀缺问题。在本文中,我们构造了一个名为CycreteGraph(概念相关性估计图)的图,以利用CRE属性。对于从混凝土图中采样的新概念对,我们添加了一个额外的步骤,以基于简单但有效的质量阈值来滤除低质量的新概念对。我们将ConcreteGraph数据扩展应用于三个基于变压器的模型以显示其功效。详细的消融研究用于质量阈值进一步表明,即使有限的高质量数据也比大量未替代数据更有益。本文是第一个在数据集上使用的文章,而建议的具体图可以提高变压器的准确性超过2%。在CNSE和CNSS数据集上,所有三个变压器都借助ConcreteGraph,均可超越当前最先进的方法,概念交互图(CIG)。
translated by 谷歌翻译
Navier-Stokes方程是描述液体和空气等流体运动的重要部分微分方程。由于Navier-Stokes方程的重要性,有效的数值方案的发展对科学和工程师都很重要。最近,随着AI技术的开发,已经设计了几种方法来整合深层神经网络,以模拟和推断不可压缩的Navier-Stokes方程所控制的流体动力学,这些方程可以以无网状和可不同的方式加速模拟或推断过程。在本文中,我们指出,现有的深入Navier-Stokes知情方法的能力仅限于处理非平滑或分数方程,这在现实中是两种关键情况。为此,我们提出了\ emph {深入的随机涡流方法}(drvm),该方法将神经网络与随机涡流动力学系统相结合,等效于Navier-Stokes方程。具体而言,随机涡流动力学激发了用于训练神经网络的基于蒙特卡洛的损失函数,从而避免通过自动差异计算衍生物。因此,DRVM不仅可以有效地求解涉及粗糙路径,非差异初始条件和分数运算符的Navier-Stokes方程,而且还继承了基于深度学习的求解器的无网格和可区分优势。我们对凯奇问题,参数求解器学习以及2-D和3-D不可压缩的Navier-Stokes方程的逆问题进行实验。所提出的方法为Navier-Stokes方程的仿真和推断提供了准确的结果。特别是对于包括奇异初始条件的情况,DRVM明显胜过现有的PINN方法。
translated by 谷歌翻译
多视图点云注册在3D重建中至关重要。由于从不同角度捕获的点云之间存在密切的连接,因此如果正确利用这些连接,则可以增强注册性能。因此,本文将注册问题建模为多任务优化,并提出了一种新颖的双通道知识共享机制,以有效,有效地解决问题。多视点云注册作为多任务优化的建模是双重的。通过同时考虑两个点云的局部精度以及所涉及的所有点云带来的全局一致性,得出了具有自适应阈值的健身函数。还定义了共同进化搜索过程的框架,以同时优化属于相关任务的多个健身函数。为了提高解决方案质量和收敛速度,拟议的双通道知识共享机制发挥了作用。任务内的知识共享引入了求解更简单的帮助任务,并且在辅助任务和原始任务上共享有用的信息,从而加速了搜索过程。任务间知识共享探讨了原始任务中埋葬的共同点,旨在防止任务陷入本地Optima。在模型对象以及场景点云上进行的综合实验显示了所提出的方法的功效。
translated by 谷歌翻译
随机部分微分方程(SPDE)是在包括大气科学和物理学在内的许多领域建模动力学的重要工具。神经操作员,几代神经网络具有无限维空间之间学习图的能力,是解决参数PDE的强大工具。但是,他们缺乏建模SPDE的能力,而SPDE通常由于驾驶噪声而定期较差。由于规律性结构的理论在分析SPDE方面取得了巨大成功,并提供了概念模型的特征向量,使SPDES的解决方案良好,我们提出了具有规律性结构(NORS)的神经操作员,该神经操作员结合了用于建模由SPDES驱动的动力学的功能向量。我们对各种SPDE进行实验,包括动态PHI41模型和2D随机Navier-Stokes方程,结果表明NORS是分辨率不变的,有效的,并且在较小量的数据级较低的误差中降低了一个数量级误差。
translated by 谷歌翻译